15 research outputs found

    Digital speech and the Markov chain Monte Carlo method for glottal inverse filtering

    Get PDF
    Speech is the most common form of human communication. An understanding of the speech production mechanism and the perception of speech is therefore an important topic when studying human communication. This understanding is also of great importance both in medical treatment regarding a patient's voice and in human-computer interaction via speech. In this thesis we will present a model for digital speech called the source-filter model. In this model speech is represented with two independent components, the glottal excitation signal and the vocal tract filter. The glottal excitation signal models the airflow created at the vocal folds, which works as the source for the created speech sound. The vocal tract filter describes how the airflow is filtered as it travels through the vocal tract, creating the sound radiated to the surrounding space from the lips, which we recognize as speech. We will also present two different parametrized models for the glottal excitation signal, the Rosenberg-Klatt model (RK-model) and the Liljencrants-Fant model (LF-model). The RK-model is quite simple, being parametrized with only one parameter in addition to the fundamental frequency of the signal, while the LF-model is more complex, taking in four parameters to define the shape of the signal. A transfer function for vocal tract filter is also derived from a simplified model of the vocal tract. Additionally, relevant parts of the theory of signal processing are presented before the presentation of the source-filter model. A relatively new model for glottal inverse filtering (GIF), called the Markov chain Monte Carlo method for glottal inverse filtering (MCMC-GIF) is also presented in this thesis. Glottal inverse filtering is a technique for estimating the glottal excitation signal from a recorded speech sample. It is a widely used technique for example in phoniatrics, when inspecting the condition of a patient's vocal folds. In practice the aim is to separate the measured signal into the glottal excitation signal and the vocal tract filter. The first method for solving glottal inverse filtering was proposed in the 1950s and since then many different methods have been proposed, but so far none of the methods have been able to yield robust estimates for the glottal excitation signal from recordings with a high fundamental frequency, such as women's and children's voices. Recently, using synthetic vowels, MCMC-GIF has been shown to produce better estimates for these kind of signals compared to other state of the art methods. The MCMC-GIF method requires an initial estimate for the vocal tract filter. This is obtained from the measurements with the iterative adaptive inverse filtering (IAIF) method. A synthetic vowel is then created with the RK-model and the vocal tract filter, and compared to the measurements. The MCMC method is then used to adjust the RK excitation parameter and the parameters for the vocal tract filter to minimize the error between the synthetic vowel and the measurements, and ultimately receive a new estimate for the vocal tract filter. The filter can then be used to calculate the glottal excitation signal from the measurements. We will explain this process in detail, and give numerical examples of the results of the MCMC-GIF method compared against the IAIF method.Tal är den mest vanliga formen av mänsklig kommunikation. På grund av detta är det viktigt att ha en bra förståelse om hur människan producerar och uppfattar tal då man studerar mänsklig kommunikation. Denna förståelse är också högst viktig i medicinska sammanhang då man vårdar en patients röst och även i utvecklandet av talkommunikation mellan människor och maskiner. I denna avhandling kommer vi att presentera den så kallade källa-filter-modellen för talproduktion. I modellen är tal representerat som två oberoende komponenter, röstkällan och ansatsrörsfiltret. Röstkällan modellerar luftflödet som uppstår vid stämbanden och fungerar som källa för det skapade talljudet. Ansatsrörfiltret modellerar hur ljudet filtreras då den rör sig genom ansatsröret till läpparna, varifrån det strålar ut till omgivningen som talljud. Vi kommer även att presentera två olika parametriserade modeller för röstkällan, Rosenberg-Klatt modellen (RK-modellen) och Liljencrants-Fant modellen (LF-modellen). Av dessa två är RK-modellen simplare och använder sig av bara en parameter tillsammans med den fundamentala frekvensen för att skapa signalen, när LF-modellen däremot använder sig av fyra parametrar för att skapa formen för signalen. Vi kommer också att härleda en överföringsfunktion för ansatsrörsfiltret från en förenklad modell för ansatsröret. Före granskningen av källa-filter-modellen kommer även relevanta delar av teorin om signalbehandling att presenteras. En relativt ny metod för röstkällans inversfiltrering (eng. glottal inverse filtering, GIF), den så kallade Markov-kedja Monte Carlo -metoden för inversfiltrering (MCMC-GIF), presenteras också i denna avhandling. Röstkällans inversfiltrering är en teknik där man strävar efter att uppskatta röstkällan från en inspelning av tal. Tekniken används mycket i till exempel foniatri, då man granskar tillståndet av en patients stämband. I praktiken går metoden ut på att separera den inspelade talsignalen till en signal för röstkällan och ansatsrörsfiltret. Första metoden för att lösa problemet formulerades redan på 1950-talet och sen dess har många olika metoder presenterats, men tills vidare har ingen av metoderna lyckats skapa pålitliga estimat för röstkällan i sådana fall där den fundamentala frekvensen i inspelningen är hög, vilket är ofta fallet för kvinnors och barns röster. MCMC-GIF-metoden har dock under senaste tiden visats, med hjälp av syntetiska vokaler, uppnå bättre resultat än någon av de tidigare metoderna även för dessa slags mätningar. I MCMC-GIF beräknas ett ursprungligt estimat för ansatsrörsfiltret från de inspelade mätningarna genom att använda den så kallade iterativa adaptiva inversfiltrering (IAIF) metoden. En syntetisk vokal skapas därefter med hjälp av RK-modellen och det beräknade ansatsrörsfiltret och jämförs med mätningarna. Därefter används MCMC-metoden för att justera RK-parametern och parametrarna för ansatsrörsfiltret för att minimera felet mellan den syntetiska vokalen och mätningarna, och till slut anhålls ett nytt estimat för anstatsrörsfiltret. Filtret kan sedan användas för att beräkna en ny uppskattning för röstkällan från mätningarna. Denna metod kommer att presenteras noggrant i avhandlingen, med numeriska exempel av en jämförelse mellan MCMC-GIF och IAIF metoderna.Puhe on ihmisen kommunikaation yleisin muoto. Tämän vuoksi puheentuottomekanismin ja puheen käsityksen ymmärtäminen on tärkeä osa ihmisen kommunikaation ymmärtämisessä. Tämä ymmärrys on myös tärkeää lääketieteessä tutkiessa potilaan ääntä sekä ihmisen ja koneen välisessä puhekommunikaatiossa. Tässä tutkielmassa tulemme esittämään niin kutsutun lähde-suodin -mallin digitaaliselle puheelle. Mallissa puhe mallinnetaan kahtena erillisenä osana, äänilähteenä ja ääntöväyläsuodattimena. Äänilähde mallintaa äänihuulilla muodostuvaa ilmavirtaa, joka toimii perustana puheäänelle. Ääntöväyläsuodatin selittää miten ääni suodattuu kulkiessaan ääntöväylän läpi, muodostaen äänen, joka säteilee huulilta ympäröivään tilaan ja jonka me miellämme puheeksi. Esitämme kaksi parametrisoitua mallia äänilähteelle, Rosenberg-Klatt -mallin (RK-mallin) ja Liljencrants-Fant -mallin (LF-mallin). Näistä kahdesta mallista RK-malli on yksinkertaisempi, sillä siinä äänilähde mallinnetaan perustaajuuden lisäksi vain yhdellä parameterilla, kun taas LF-mallissa äänilähteen muoto määritetään neljän parametrin avulla, tehden siitä huomattavasti monimutkaisemman. Johdamme lisäksi ääntöväyläsuodattimelle siirtofunktion yksinkertaistetusta mallista ääntöväylälle. Ennen lähde-suodin -mallin läpikäyntiä esitämme lisäksi tarpeelliset osat signaalikäsittelyn teoriasta. Tutkielmassa esitämme myös melko uuden mallin äänilähteen käänteissuodatukselle (eng. glottal inverse filtering, GIF), niin kutsutun Markov-ketju Monte Carlo -menetelmän äänilähteen käänteissuodatukselle (MCMC-GIF). Äänilähteen käänteissuodatus on tekniikka, jossa äänilähde arvioidaan nauhoitetusta puhesignaalista. Tekniikkaa käytetään laajasti esimerkiksi foniatriikassa, kun halutaan tutkia potilaan äänihuulten kuntoa. Käytännössä menetelmissä tavoitteena on erottaa havaintosignaali äänilähteeksi ja ääntöväylän suodattimeksi. Ensimmäinen menetelmä äänilähteen käänteissuodatukselle esitettiin jo 1950-luvulla ja useita malleja ongelman ratkaisemiseksi on ehdotettu siitä lähtien, mutta vieläkään mikään tunnettu menetelmä ei ole pystynyt varmasti arvioimaan äänilähdettä tilanteissa, joissa havaintosignaalin perustaajuus on korkea, kuten naisten ja lasten äänissä tyypillisesti on. MCMC-GIF-menetelmä on kuitenkin osoittautunut synteettisiin vokaaleihin perustuvassa testauksessa toimivan muita tämän hetken parhaita menetelmiä paremmin, etenkin korkean taajuisten havaintojen tapauksessa. MCMC-GIF-menetelmässä ääntöväylän suodattimelle tarvitaan alustava arvio, joka lasketaan niin kutsutulla IAIF-menetelmällä (eng. iterative adaptive inverse filtering). Tätä suodatinta ja RK-mallia käyttäen luodaan synteettinen vokaaliäänne, jota verrataan havaintosignaaliin. MCMC-menetelmää käytetään tämän jälkeen säätämään RK-mallin ja ääntöväylän suodattimen parametreja minimoimaan virhe synteettisen vokaalin ja havaintojen välillä, mistä lopulta saavutetaan uusi arvio ääntöväylän suodattimelle, jota käytetään uuden äänilähteen arvion laskemiseen. Tämä prosessi MCMC-GIF-menetelmälle esitetään tutkielmassa tarkasti, ja menetelmän tuottamia tuloksia verrataan esimerkkitapauksissa IAIF-menetelmän tuottamiin tuloksiin

    Alternating minimisation for glottal inverse filtering

    Get PDF
    A new method is proposed for solving the glottal inverse filtering (GIF) problem. The goal of GIF is to separate an acoustical speech signal into two parts: the glottal airflow excitation and the vocal tract filter. To recover such information one has to deal with a blind deconvolution problem. This ill-posed inverse problem is solved under a deterministic setting, considering unknowns on both sides of the underlying operator equation. A stable reconstruction is obtained using a double regularization strategy, alternating between fixing either the glottal source signal or the vocal tract filter. This enables not only splitting the nonlinear and nonconvex problem into two linear and convex problems, but also allows the use of the best parameters and constraints to recover each variable at a time. This new technique, called alternating minimization glottal inverse filtering (AM-GIF), is compared with two other approaches: Markov chain Monte Carlo glottal inverse filtering (MCMC-GIF), and iterative adaptive inverse filtering (IAIF), using synthetic speech signals. The recent MCMC-GIF has good reconstruction quality but high computational cost. The state-of-the-art IAIF method is computationally fast but its accuracy deteriorates, particularly for speech signals of high fundamental frequency (F0). The results show the competitive performance of the new method: With high F0, the reconstruction quality is better than that of IAIF and close to MCMC-GIF while reducing the computational complexity by two orders of magnitude.Peer reviewe
    corecore